歡迎來到統計學的范式轉變。我們已超越「趨勢線」的簡單直覺,進入一個嚴謹的 分佈框架。在這裡,我們將關係定義為不僅僅是相關係數,而是當預測變量 $X$ 變化時,響應變量 $Y$ 的機率行為所發生的任何變化。
定義 10.1.1:統計上的連結
兩個變量 $X$ 與 $Y$ 被視為 相關 如果存在 任何 在給定 $X = x$ 時,$Y$ 的條件分佈隨 $x$ 變化而改變。反之,『無關係』狀態在數學上等價於 $X$ 與 $Y$ 的獨立性。
邏輯等價
變量 $X$ 與 $Y$ 無關,當且僅當對所有 $x$ 值皆有 $f(y|x) = f(y)$。這表示聯合相對頻率函數可分解為:
$$f(x, y) = f(x)f(y)$$
因此,檢驗關係本質上是一種對 獨立性的檢驗。
變化的機制
只要條件密度函數發生任何位移(如圖 10.1.1 所示),即被識別為關係。這包括:
- 均值位移: 期望值 $E(Y|X)$ 發生變化(最常見的關注點)。
- 變異數位移: $Y$ 的散布或不確定性依賴於 $X$(異方差性)。
- 形狀改變: 整體分佈發生轉變(例如,從對稱轉為偏斜)。
透過設計建立因果關係
統計關係並不代表因果關係。若要主張 $X$ 導致 $Y$,必須透過 實驗設計來考量混雜變量:
- 對照組: 提供比較的基準。
- 安慰劑效應: 透過非活性處置減輕感知改善。
- 盲法: 使用 單盲實驗 (受試者不知情)及 雙盲實驗 (受試者與研究人員皆不知情)以消除偏誤。
- 區組化: 如 範例 10.1.7中所示,我們使用區組變數(如土壤肥力的 $W$)確保小麥類型($X$)與產量($Y$)之間的關係不受先前條件的混淆。
🎯 核心數學估計
我們利用 條件似然 函數來估計這些連結。對於具有計數 $f_{ij}$ 的離散資料:
$$L = \prod_{i=1}^a \prod_{j=1}^b (\theta_{j|X=i})^{f_{ij}}$$
標準誤差:$SE = \sqrt{\frac{\hat{\theta}_{ij}(1 - \hat{\theta}_{ij})}{n}}$